33 research outputs found

    Méthodes probabilistes basées sur les mots visuels pour la reconnaissance de lieux sémantiques par un robot mobile.

    Get PDF
    Les êtres humains définissent naturellement leur espace quotidien en unités discrètes. Par exemple, nous sommes capables d'identifier le lieu où nous sommes (e.g. le bureau 205) et sa catégorie (i.e. un bureau), sur la base de leur seule apparence visuelle. Les travaux récents en reconnaissance de lieux sémantiques, visent à doter les robots de capacités similaires. Ces unités, appelées "lieux sémantiques", sont caractérisées par une extension spatiale et une unité fonctionnelle, ce qui distingue ce domaine des travaux habituels en cartographie. Nous présentons nos travaux dans le domaine de la reconnaissance de lieux sémantiques. Ces derniers ont plusieurs originalités par rapport à l'état de l'art. Premièrement, ils combinent la caractérisation globale d'une image, intéressante car elle permet de s'affranchir des variations locales de l'apparence des lieux, et les méthodes basées sur les mots visuels, qui reposent sur la classification non-supervisée de descripteurs locaux. Deuxièmement, et de manière intimement reliée, ils tirent parti du flux d'images fourni par le robot en utilisant des méthodes bayésiennes d'intégration temporelle. Dans un premier modèle, nous ne tenons pas compte de l'ordre des images. Le mécanisme d'intégration est donc particulièrement simple mais montre des difficultés à repérer les changements de lieux. Nous élaborons donc plusieurs mécanismes de détection des transitions entre lieux qui ne nécessitent pas d'apprentissage supplémentaire. Une deuxième version enrichit le formalisme classique du filtrage bayésien en utilisant l'ordre local d'apparition des images. Nous comparons nos méthodes à l'état de l'art sur des tâches de reconnaissance d'instances et de catégorisation, en utilisant plusieurs bases de données. Nous étudions l'influence des paramètres sur les performances et comparons les différents types de codage employés sur une même base.Ces expériences montrent que nos méthodes sont supérieures à l'état de l'art, en particulier sur les tâches de catégorisation.Human beings naturally organize their space as composed of discrete units. Those units, called "semantic places", are characterized by their spatial extend and their functional unity. Moreover, we are able to quickly recognize a given place (e.g. office 205) and its category (i.e. an office), solely on their visual appearance. Recent works in semantic place recognition seek to endow the robot with similar capabilities. Contrary to classical localization and mapping work, this problem is usually tackled as a supervised learning problem. Our contributions are two fold. First, we combine global image characterization, which captures the global organization of the image, and visual words methods which are usually based unsupervised classification of local signatures. Our second but closely related, contribution is to use several images for recognition by using Bayesian methods for temporal integration. Our first model don't use the natural temporal ordering of images. Temporal integration is very simple but has difficulties when the robot moves from one place to another.We thus develop several mechanisms to detect place transitions. Those mechanisms are simple and don't require additional learning. A second model augment the classical Bayesian filtering approach by using the local order among images. We compare our methods to state-of-the-art algorithms on place recognition and place categorization tasks.We study the influence of system parameters and compare the different global characterization methods on the same dataset. These experiments show that our approach while being simple leads to better results especially on the place categorization task.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

    Propriétés analogiques des représentations mentales de l'espace (étude comparative auprès de personnes voyantes et non-voyantes)

    No full text
    Nous nous sommes intéressés à la "plasticité" comportementale de l'individu dès lors qu'il est privé de vision dès la naissance. Plus spécifiquement, nous avons étudié la façon dont cet individu pouvait se représenter mentalement l'espace dans lequel il évolue, et la façon dont il pouvait bénéficier des informations provenant des autres sens. Il s'agissait de comprendre si des étapes indispensables dans la construction des représentations mentales opéraient dès le plus jeune âge, et dans quelle mesure la plasticité comportementale/cérébrale pouvait pallier cette privation visuelle précoce. Trois séries d'expériences ont été proposées à des participants non-voyants de naissance, non-voyants tardifs, voyants privés de vision, et voyants gardant les yeux ouverts. La première consistait en une tâche d'exploration mentale, la seconde en une tâche de comparaison mentale des distances. Dans ces deux expériences, les participants apprenaient la configuration d'un environnement spatial par description verbale ou par exploration tactile. La dernière série d'expériences avait pour objectif d'examiner si l'immersion des individus dans l'environnement à mémoriser pouvait améliorer leurs performances. Nous avons conçu une plate-fore de Réalité Virtuelle en "audio 3D", permettant de générer un environnement spatial composé de sources sonores virtuelles dans lequel les individus avaient la possibilité de se déplacer. Les résultats suggèrent que la taille de la configuration initiale n'a pas d'effet sur le traitement des relations spatiales, même si les personnes non-voyantes précoces font plus d'erreurs d'évaluation des distances sur des configurations de petite taille.We are interested in behavioral "plasticity" of individuals who have been deprived of vision from birth. More specifically, we have studied the manner in which the individual mentally represents the space around them, and the way in which the inidividual benefits from information coming from other senses. The aim of the study consists in understanding if the essential stages for the construction of the mental representations are in operation from an early age, and up to what point behavioral/cerebral plasticity could mitigate this early visual deprivation. Three series of experiments were proposed with participants who were categorized as blind from birth, late blind, sighted and blindfolded, or sighted with eyes open. The first two experiments consisted of a task of mental exploration and of mental comparison of distances. In these two experiments, the participants learned the configuration of a small spatial environment through verbal description or tactile exploration. The third series of experiments was aimed at examining whether the immersion of the individual in the environment would improve their performance. We designed an immersive Virtual Reality system for "3D sound", which allows for the generation of a human scale environment consisting of a spatial distribution of virtual sound sources in which the individual has the capacity to move about. The results suggest that the size of the initial configuration does not have an effect on the treatment of the spatial relations, even though blind from birth participants made more erros with regards to distance evaluation with the smaller sized configuration.ORSAY-PARIS 11-BU Sciences (914712101) / SudocSudocFranceF

    Chapitre I. La perception visuelle

    No full text
    Un élément essentiel bien établi aujourd’hui est qu’il n’existe pas de problème général de la perception, comme il n’existe pas de problème général de la cognition. Cette assertion fait écho à l’abandon, par l’intelligence artificielle, de la recherche d’un système général de résolution de problèmes. Réduire les processus cognitifs à un unique algorithme est vain. Les systèmes biologiques ont résolu, durant l’évolution, de multiples problèmes dans lesquels cognition et perception jouaient des..

    Attentional Mechanisms for Interactive Image Exploration

    Get PDF
    A lot of work has been devoted to content-based image retrieval from large image databases. The traditional approaches are based on the analysis of the whole image content both in terms of low-level and semantic characteristics. We investigate in this paper an approach based on attentional mechanisms and active vision. We describe a visual architecture that combines bottom-up and top-down approaches for identifying regions of interest according to a given goal. We show that a coarse description of the searched target combined with a bottom-up saliency map provides an efficient way to find specified targets on images. The proposed system is a first step towards the development of software agents able to search for image content in image databases

    Formalisme pragmatiste pour le développement de schèmes cognitifs en robotique autonome

    No full text
    Afin de déterminer les difficultés à réaliser un robot autonome, une grille d analyse philosophique et épistémologique a été établie pour mener une étude transversale. Cette étude révèle que les diverses approches se justifient par au moins une hypothèse ontologique qui conduit inévitablement à une impasse au développement d une science de la cognition contrairement aux sciences physiques. Une solution consiste alors à adopter une définition pragmatiste de la vérité (James, 1905) conduisant à considérer la cognition comme une dynamique sémiotique auto-orientée toujours en interaction avec l'environnement. À partir de la notion d autopoièse (Varela, 1989), la cognition a été définie comme une autopoièse sémiotique. La formalisation de ce concept a permis de déterminer une architecture cognitive. En s inspirant des systèmes de classeurs (Holland, 1976), une architecture cognitive minimale fut spécifiée et implémentée. L expérimentation en environnement simulé et réel a pu montrer la présence de propriétés d auto-organisation et d auto-orientation, en exprimant les règles et les métarègles avec le même formalisme.ORSAY-PARIS 11-BU Sciences (914712101) / SudocSudocFranceF

    Modèles d'objets et codages invariants en vision artificielle (classification d'images et reconnaissance de contexte)

    No full text
    Nous proposons une méthode de codage fondée sur le contenu fréquentiel de l'image, inspirée des mécanismes de filtrage à l'œuvre dans les systèmes de vision naturels. Deux outils indépendants, successifs, ont été implémenté : un outil de recherche de code multi-échelle fondé sur des principes évolutionnistes et un outil de catégorisation. Les caractéristiques fréquentielles de la scène visuelle sont extraites en utilisant un banc d ondelettes de Gabor. A partir de cette signature multi-fréquentielle, la classification a été abordée selon deux points de vue : indexer une base d images, construire un outil de structuration de l espace visuel en robotique. Dans le premier cas, l apprentissage est supervisé. Deux techniques ont été comparées : fonctions à base radiales et K plus proches voisins. Dans le second cas, le système doit appréhender son environnement et se faire sa propre représentation de l espace visuel. L apprentissage est non supervisé. Les techniques mises en œuvre sont Kohonen et K-moyennes. Les résultats de reconnaissance obtenus jusqu ici sur différentes classes d images sont satisfaisants. Nous montrons que la méthode de codage actuelle peut être améliorée en affinant les gammes de fréquences spatiales nécessaires à la reconnaissance et en l adaptant en fonction des caractéristiques de chaque classe. Contrairement aux approches conventionnelles, les catégories que nous envisageons ne sont pas toutes disjointes.Des approches permettant de prendre en compte une probabilité d appartenance à une classe peuvent donc être employées.Par ailleurs certaines catégories peuvent être considérées comme caractéristiques du contexte global de la scène.We propose a coding method based on the frequency contents of the image, inspired from the filtering mechanisms observed within the natural vision systems. Two independent tools, both used subsequently, were implemented : a research tool for multi-scale codes based on evolutionary principles, and a categorization tool. The characteristics of the frequencies of the visual scene are extracted by using a bank of Gabor. On the basis of this multi-scale signature, the classification was approached from two different perspectives. The first perspective consisted in indexing an image database, while the second was focused on building a tool to structure the visual space in robotics. In the first case, the learning is supervised. Two techniques were compared: radial base functions and K nearest neighbours. In the second case, the system has to embrace its environment and make its own representation of the visual space. The learning is not supervised. Techniques implemented were the following: Kohonen and K-means. So far, results of recognition obtained are satisfactory. The current coding methodology can be improved by refining the ranges of spatial frequencies which are necessary to obtain recognition and by adapting this methodology according to the characteristics of every class. Contrary to conventional approaches, the categories which are under study are not all completely separated. Approaches allowing to take into account a probability for a category to belong to a class can thus be employed. Furthermore, categories can be considered as typical characteristics of the global context of the scene.ORSAY-PARIS 11-BU Sciences (914712101) / SudocSudocFranceF
    corecore